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COMPOSANT A ARCHITECTURE RECONFIGURABLE DYNAMIQUEMENT 

DESCRIPTION 

5 DOMAINE TECHNIQUE 

L' invention releve du domaine des 
composants reconf igurables dynamiques dedies au 
traitements de donnees, notamment pour 1' execution des 
instructions correspondant aux di verses taches d'une 
10 application. 

ETAT DE LA TECHNIQUE ANTERIEURE 

Les composants reconf igurables de maniere 
15 dynamique ont classiquement pour finalite une 
utilisation optimisee de leurs ressources materielles 
lors de traitements de donnees effectues pour realiser 
une application. Le plus souvent il s'agit de 
reconfiguration visant a obtenir un taux d' utilisation 
20 d'un composant le plus eleve possible. D'autres fois il 
s'agit d'utiliser la reconfiguration pour viser la 
robustesse d'un composant (c' est-a-dire de permettre au 
composant de fonctionner meme en cas de defaillance 
d'une partie de ses ressources materielles), ou bien il 

25 s'agit de viser un tres haut debit de donnees traitees 
par le composant ou bien encore une consommation 
d'energie reduite lors de 1' utilisation du composant. 
La reconfiguration peut aussi etre utilisee pour 
optimiser le traitement de donnees en parallele sur des 

30 processeurs elementaires du composant. 
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II existe differentes manieres de realiser 
une application : avec un circuit integre a application 
specifique {un ASIC, "Application Specific Integrated 
Circuit' ) dedie, avec un processeur ou avec un rfeseau 
prediffus£ programmable par 1' utilisateur (un FPGA, 
"Field Programmable Gate Array' ) . 

I/ASIC dedi<§ offre une realisation spatiale 
optimum puisque les operateurs sont directement cables 
sur le silicium ; cependant ce type de composant etant 
d6die & une application donnee, il ne permet pas de 
passer (ou alors de fagon tres degradee) & un autre 
type d' application. 

1/ utilisation d'un processeur permet une 
implementation temporelle d'une application : celle-ci 
est traduite en sequences d' instructions realisables 
par le processeur, avec reutilisation' de son unite de 
traitement a chaque cycle. Suivant le jeu 
d' instructions du processeur, cette technique offre une 
grande souplesse au niveau des applications qui peuvent 
etre traitees et de plus 1' architecture est tres 
compacte. L' inconvenient principal du processeur 
concerne la performance qui est tr£s loin de celle des 
ASICs dedies. 

Les composants programmables (on dit aussi 
reconfigurables) que sont les FPGA presentent une 
alternative entre le processeur et l'ASIC : une 
application est implantee sur une matrice de cellules 
de traitement pre-caracterisees (grains fins du 
composant) avec . de norabreuses interconnexions. 
Cependant, 1' utilisation actuelle des FPGA est limitee 
le plus souvent a une seule conf iguratiion implantee 
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alors qu'il est souhaitable d'effectuer des 
reconfigurations en cours d' execution. On a done une 
repartition spatiale de 1' application a realiser et non 
temporelle : la capacite du FPGA a se reconfigurer pour 
5 realiser une autre application n'est pas exploitee. 
Deux raisons principales expliquent cette absence de 
reconfiguration dynamique : tout d' abord, la majorite 
des FPGA n'autorise qu'une reconfiguration totale du 
compos ant, ce qui entraine un cotit tres lourd en terme 
10 de temps (typiquement quelques millisecondes a quelques 
centaines de millisecondes) car il faut re-router 
1' application pour cabler les operateurs de fagon 
optimum ; ensuite, du fait que le grain des FPGA est 
tres fin pour pouvoir s' adapter a un grand nombre 
15 d' applications, le cablage des operations a 
1' inconvenient d'etre complexe et de necessiter une 
capacite de transmission importante pour un grand 
nombre de bits (au niveau des bus de controle) . 

Le brevet 056,150,839 divulgue un nouveau 
20 type de FPGA qui possede deux niveaux de cache pour 
pouvoir se reconfigurer partiellement . 1/ architecture 
ce FPGA se presente sous la forme de deux ensembles 
de cellules qui sont associees respectivement a deux 
memoires cache, chacune de ces m§moires pouvant 
25 contenir un ou plusieurs contextes pour 1' ensemble des 
cellules- Ce type de FPGA presente plusieurs 
inconvenients : la reconfiguration des cellules se fait 
par paquets de cellules et le chargement d'une nouvelle 
configuration necessite plusieurs cycles d'horloge ; de 
30 plus, la structure de communication inter-cellules est 
complexe et fait intervenir des bus globaux, les 
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possibilities tres etendues d' interconnexion qui en 
resultent font que les ressources d' interconnexion 
predominent sur celles de traitement. 

L' architecture dite DPGA [1,2] (pour 
5 dynamically Programmable Gate Array' ) , developpee au 
MIT des 1994, a pour grain fin une cellule assez simple 
comportant une LUT ( x Look-Up Table' ou table de 
conversion) a quatre entrees et une bascule 
programmable. Ces cellules sont regroupees par blocs de 
10 16 au sein d'une matrice 4x4. La mise en tableau de ces 
elements constitue le DPGA. Deux reseaux 
d' interconnexions cohabitent dans cette architecture. 
Le premier reseau est local au bloc de cellules : 
chaque cellule peut utiliser en entree les sorties des 
15 cellules appartenant a la meme ligne ou a la meme 
colonne (soit 6 bits), il est aussi possible que la 
cellule utilise sa propre sortie comme entree. Le 
second rfeseau permet de fournir a chaque bloc des 
signaux globaux. En effet, les blocs communiquent entre 
20 eux en utilisant des ^crossbar' (reseau 

d' interconnexion) qui autorisent chaque cellule a 
recevoir deux signaux globaux par matrice voisine (soit 
8 bits, car chaque matrice contient 16 cellules et peut 
done fournir 16 bits & ses voisins) . Pour les entrees 
25 de la LUT de chaque cellule, il y a done le choix parmi 
15 bits : sa sortie, les 6 bits des cellules voisines, 
les 8 bits des matrices voisines. Le DPGA est capable 
de memoriser quatre contextes (ou configurations), ce 
qui autorise le passage rapide de 1'un a 1' autre. Ce 
30 composant presente toutefois certains inconv<§nients : 
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- la structure d' interconnexion est trop complexe pour 
supporter des applications de type flot de donnees (par 
exeiuple des applications multimedia, interactives ou de 
cryptographie) ; 

- la simplicity de commande des contextes (deux fils 
pour le composant) limite les possibilites de 
realisation du composant au niveau de la 
reconfiguration ; 

- le maintien des resultats de traitement a lieu a la 
sortie de la cellule, ce qui oblige a maintenir toutes 
les entries, du producteur jusqu'au consommateur 
final ; 

- un seul numero de configuration est distribue pour 
tout le composant. 

L' architecture PipeRench [3,4] a 6te 
developpee pour utiliser la reconfiguration en mode 
pipeline afin de r^aliser des applications de type flot 
de donnees. C'est une architecture £ gros grain, elle 
est bas6e sur des cellules relativement complexes 
(grain fin) PE (pour ^Processing Element') organisees 
en ^stripes' ou etages de cellules (gros grain) . Ces 
stripes physiques (cables sur silicium) sont organises 
en lignes et sont relies entre eux par des 
interconnexions qui permettent la realisation d'un 
anneau ; c'est cet anneau physique qui pennet le 
pipeline. PipeRench d^coupe une application a realiser 
en un certain nombre d' operations §lementaires qui sont 
ensuite reparties dans des stripes virtuels (Stages 
virtuels decrits en memoire) . Du fait de la taille 
importante des cellules PE, il n'est en general pas 
possible d' avoir autant de stripes physiques que 
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necessaire sur le composant : PipeRench virtualise done 
les ressources materielles necessaires en reconf igurant 
les stripes physiques de maniere a ce qu' ils realisent 
successivement toutes les operations de 1' application. 
Chacune des etapes de 1' application correspond a une 
configuration particuliere d'un etage physique de 
1' architecture. Les donnees se d^placent d' etage en 
etage en realisant les differentes etapes du 
•traitement, ce qui rend difficile la realisation de 
traitements non dfeterministes pour lesquels 
1' application est dependante des donnees. De plus, tout 
les etages de traitement n'fetant pas forcement presents 
dans 1' architecture physique, chaque etage ne doit 
dependre que des donnees de 1' etage precedent. Une 
structure particuliere de registre permet cependant de 
faire transiter des donnees vers un etage inferieur en 
appliquant le meme pipeline que pour les donnees 
classiques ; ceci impose toutefois que des bouclages ne 
peuvent intervenir qu' au sein d'un meme 6tage (les 
bouclages entre etages sont prohibes) , des registres 
permettant de r£aliser des retroactions au sein d'un 
etage. Lorsqu'un etage est decharge de 1' architecture, 
sa configuration doit Stre sauvee de fagon a maintenir, 

pour sa rfeutilisation, 1 ' etat_ de ses^ variables 

internes. Le passage des donnees entre les stripes se 
fait de maniere unidirectionnnelle, e'est pourquoi les 
configurations sont stockees dans une memoire unique et 
sont transferees au coup par coup aux stripes devant 
etre reconfigures. PipeRench presente encore d'autres 
inconvenients : 

l 
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- les stripes sont complexes car ils utilisent des 
interconnexions locales entre les cellules PE ; 

- le nombre tres important de bits qu'il faut 
transmettre pour la remise a jour de la configuration 

5 des stripes ; 

- les application traitees doivent etre du type flot de 
donnees et n' avoir que des boucles internes courtes 
(sur un seul stripe) ; 

- les cellules PE (plus 61aborees que celles des FPGA) 
10 correspondent a un grain encore trop fin pour pouvoir 

effectuer des traitements complexes ; 

si une application traitee est trop longue par 
rapport au nombre de stripes , le temps de latence pour 
un traitement complet peut devenir tres important ; 
15 - enfin la consommation du composant est plus elevee 
d' environ 30% par rapport a celle d'un processeur 
classique. 

Les composants reconf igurables de l'art 
anterieur presentent done certains inconvenients ou 

20 limitations : les ressources d' interconnexion 

predominent sur celles de traitement, leur grain est 
trop fin, les ressources de routage necessaires pour le 
controle du composant sont trop importantes, ils ne 
sont pas adaptables a toutes les applications d' un 

25 domaine donne (par exemple : tous les algorithmes 
symetriques en cryptographie) et ils ne peuvent pas 
traiter des applications differentes en meme temps, ils 
ne sont pas adaptes pour le traitement de plusieurs 
types (flot de donnees ou donnees d^pendantes ) , leur 

30 taux d' utilisation n'est pas 61ev§ notamment lorsque 
l'on fait des traitements multimodes (pipeline ou 
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parallele ou mixte) , ils ne sont pas modulables en 
terme de consommation d'energie (basse consommation ou 
haut debit) . 

EXPOSE DE L' INVENTION 

1/ invention vise done a palier aux 
inconvenients pre-cit6s mais aussi a assurer la surete 
structurelle et la robustesse (reconfiguration en cas 
de dysf onctionnement d' une partie du coraposant) du 
composant reconf igurable dynamique. 

Afin de pouvoir equilibrer les ressources 
d' interconnexion et de traitement dans le composant, 
les op&rateurs complexes (au niveau du choix du grain) 
sont f avorises et les ressources d' interconnexion sont 
limitfees. Les echanges lies au controle sont limites en 
instaurant un nombre de bits de controle reduit tout en 
autorisant des echanges de donndes a traiter larges. 
Les ressources de routage global ont ete supprimees et 
ne sont conservees que des ressources locales ou 
pseudo-locales utiles aux transfert de donnees. Ce 
choix est li§ a celui du grain de base de 
1' architecture du composant selon 1' invention. 

Dans son mode de realisation de base, le 
"corapVseTnt "i^~arc^rt^ctur*e reconf igurable" ' *^"am quenient , ' 
pour le traitement de donnees, selon 1' invention, est 
un composant comportant un bloc de traitement de 
donnees TD et un controleur general CG apte a controler 
le bloc TD caracterise en ce que : 

le bloc TD comprend une plurality de blocs 
elementaires de traitement de ( donnees BE 
reconf igurables ; chaque bloc 61&mentaire BE comprenant 
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deux entrees, El et E2, pour la reception de donnees a 
traiter, et une sortie S pour la transmission de 
donnees traitees ; un bus de donnees d' entree commun 
etant apte a transmettre des donnees a traiter a 
5 1 ' entree El de chacun des blocs BE ainsi qu'au 
controleur CG ; pour chaque bloc BE, un bus de donnees 
de sortie, connecte a sa sortie S, etant apte a 
transmettre des donnees traitees vers l'exterieur du 
composant et, par un bus de donnees derive, a 1' entree 
' 10 E2 d'un seul autre bloc BE ; 

le controleur CG est apte & initialiser les 
configurations des blocs BE et commander leur 
reconfiguration dynamique, a controler les flux de 
donnees en sortie de chaque bloc BE de fagon a 
15 transmettre des donnees soit vers l'exterieur soit vers 
1' entree E2 d'un autre bloc BE, a controler les flux de 
donnees en entree de chaque bloc BE. 

Ce mode de realisation de base permet de 
palier a certains des inconvenients de l'art anterieur, 
20 notamment en ce qui concerne la complexity des 
interconnexions qui est ici fortement reduite. Le grain 
de la version de base du composant est le bloc 
elementaire de traiteraent BE, il peut etre capable de 
traiter des operations complexes, et les 
25 interconnexions permettent la transmission serie ou 
parallele, ou la sortie vers l'exterieur, entre chaque 
paire de blocs BE consecutifs. Le controleur CG est 
bien s\ir apte a gerer les problemes de saturation de 
chaque bloc BE et il est aussi, classiquement , apte a 
30 emettre des requetes vers l'exterieur pour faire 
recevoir des donnees a traiter par le bloc TD (le bloc 
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TD etant apte a recevoir des donnees de 1' exterieur du 
composant) , a recevoir de l'extferieur des instructions 
pour le traitement de donnfees par le bloc TD, et les 
memoriser et a 6changer des signaux de controle avec 
1' exterieur . 

Le mode de realisation de base du composant 
selon 1' invention est illustre, sur un exemple 
particulier, sur la figure 1 : le composant comporte un 
bloc de traitement de donnees TD (1) et un controleur 
general CG (2), le bloc TD peut recevoir des donnees de 
1' exterieur (3) et comprend trois blocs elementaires de 
traitement de donnees BE (4,5,6) ; sur le bloc (4) sont 
indiqu£es les entrees El et E2 ainsi que la sortie S, 
1' entree El de chaque bloc BE est reliee au bus de 
donnees d'entree commun (7), la sortie S de chaque bloc 
BE est connectee a un bus de sortie (8,9,10) vers 
1' exterieur et a I'entr^e E2 d' un seul autre bloc par 
un bus de donnees derive (11,12,13). Les bus de 
controle reliant le controleur CG (2) aux blocs BE ou a 
1' exterieur ne sont pas representees. 

Dans un mode de realisation a utilisation 
maximale de bloc, dependant du mode de base, le 
controleur CG du composant selon 1' invention est apte a 
commander la transmission des donn6es regues de 
1' exterieur sur le bus de donn6es d'entree commun, au 
fur et a mesure de leur arrivee, successivement a 
chacun des blocs BE, les donnees 6tant transmises a un 
bloc BE suivant lorsque la capacity maximale de 
traitement du bloc BE precedent est atteinte. 

Ce mode de realisation permet & la fois de 
gerer la saturation des blocs et d' assurer que chaque 
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bloc utilise l'est au maximum de ses capacities de 
traitement. La capacite maximale de chaque bloc, par 
exemple f peut etre predefinie (et donnee au controleur 
CG) ou bien un bloc peut indiquer au controleur CG 
qu'il est sature en cours de traitement- 

Dans un autre mode de realisation, dit a 
modes de traitement multiples, du composant selon 
1' invention, dependant de 1'un ou 1' autre des deux 
modes de realisation precedents, le contrdleur CG est 
apte a initialiser les configurations des blocs BE, 
bloc par bloc, et commander la reconfiguration 
dynamique des blocs, bloc par bloc, de fagon & rendre 
le bloc TD apte a traiter des donnees en mode pipeline 
ou en mode parallele ou en mode mixte, 

Avec cette version du composant il est 
possible d'effectuer un traitement en mode pipeline, 
c'est-a-dire en faisant circuler les donnees de la 
sortie S d'un bloc a 1' entree E2 du bloc auquel il est 
connecte par un bus derive, ou bien en mode parallele, 
c'est-a-dire en utilisant les blocs de maniere 
independante (le bloc traite les donnees transmises par 
le bus de donn§es d' entr6e commun et transmet le 
resultat en sortie, le bus derive n'est alors pas 
utilise), ou bien en mode mixte, c'est-a-dire que 
certains blocs travaillent en parallele et d'autres en 
pipeline- Cette version du composant est 
particuli^rement avantageuse pour sa souplesse 
d' adaptation et aussi parcequ'elle permet de traiter 
des application differentes, en meme temps, sur des 
blocs BE fonctionnant en mode independant, a la 
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difference de l'art anterieur, grace a la 
reconfiguration bloc par bloc. 

Un autre mode de realisation, selon 
1' invention, d'un composant a architecture 
5 reconf igurable dynamiquement, dit & lignes d' unites de 
traitement, est un composant conforme a 1'un quelconque 
des modes de realisation precedents et dans lequel : 

- cha que bloc BE du bloc TD comprend une pluralite 
d' unites de traitement de donnees UT conf igurables, et 

10 correspond a une ligne d'un r£seau matriciel d' unites 
UT dans le bloc TD ; les unites UT de chaque paire 
d' unites successives dans chaque bloc BE etant aptes a 
echanger des donnees via un bloc de communication 
bidirectionnelle configurable associe BCOM dedie a ces 

15 deux unites ; 

- 1' unite UT d' entree de chaque bloc BE, qui correspond 
a la premiere unite UT sur la ligne correspondant au 
bloc, est apte a recevoir en entree des donnees regues 
sur les entrees El ou E2 du bloc, et 1' unite UT de 

20 sortie du bloc, qui correspond a la derniere unite UT 
sur la ligne correspondant au bloc, est apte a 
transmettre en sortie des donnees traitees & la sortie 
S du bloc ; 

~ le controleur CG est apte, pour chaque bloc BE, a 
25 recevoir de l'exterieur des instructions pour ie 
traitement de donnees par chacune des unites UT du bloc 
et a les memoriser, a initialiser les configurations de 
chaque unite UT et de chaque bloc BCOM du bloc BE et a 
commander leur reconfiguration dynamique. 
30 Ce mode de realisation utilise des blocs de 

communication BCOM, permettant des pommunications 
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bidirectionnelles entre unites UT de traitement 
adjacentes d'un meme bloc BE : cette organisation d'un 
bloc BE autorise une grande souplesse de configuration 
du bloc ( car chaque UT est reconf igurable) , notamitient 
pour les traitements multimodes . De plus, il est 
possible d'utiliser une interconnexion simple, pour les 
bus de contr61e, entre les unites UT, le blocs BCOM et 
le controleur CG : par exemple, chaque unite UT de 
chaque bloc BE peut etre connectee au contr61eur CG par 
un bus de contrdle commun pour le bloc BE ; de meme, 
chaque bloc BCOM de chaque bloc BE peut etre connecte 
au controleur CG par un bus de controle commun pour le 
bloc BE. L'homme du metier notera que, lors d'un 
fonctionnement en parallele, la structure avec un 
nombre pair d' unites UT sur une ligne est plus 
efficace : en effet, apres le remplissage d'un bloc BE 
avec des donnees {du debut vers la fin du bloc) et 
quand le bloc BE est sature de donnees, si le nombre 
d' unites UT est pair et du fait du caractere 
bidirectionnel des blocs BCOM, les unites peuvent 
travailler par paires alors que si le nombre d' unites 
est impair il restera une unite inutilisee. La 
structure du bloc TD est equivalente a un reseau 
matriciel : les blocs BE, et leurs unites UT, en 
forment les lignes ; d'une ligne a 1' autre, les unites 
UT (de rang correspondant sur les lignes) en forment 

les colonnes . 

La figure 2 illustre un exemple de 
structure d'un bloc BE du composant a lignes d' unites 
de traitement : le bloc BE (14) comprend 4 unites de 
traitement UT (15) alternant avec des blocs de 
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communication BCOM (16) ; 1' unite UT d' entree (15) du 
bloc est apte & recevoir des donnees en entree via un 
bus de donnees (18) et l'unite UT de sortie (17) du bloc 
est connectee en sortie (19) a la sortie S du bloc, Les 
unites UT sont connectees par un bus de controle commun 
(20) au contrdleur CG (non represents), et les- blocs de 
communication BCOM sont connectes par un un bus de 
contrdle commun (21) au controleur CG- 

Un autre mode de realisation du composant 
selon 1' invention, dependant du mode de realisation & 
lignes d' unites de traitement, est un composant, dit & 
registres inter-lignes, dans lequel : 

- les blocs BCOM de chaque paire de blocs BCOM, dont 
les unites UT associees sont, selon le reseau matriciel 
d' unites du bloc TD, sur des colonnes adjacentes et sur 
des lignes adj acentes , sont aptes a echanger des 
donnees par un registre inter-lignes associe REG, de 
fagon & permettre l'echange de donnees entre unites UT 
d'une ligne a 1' autre; 

le controleur CG est apte a commander la 
reconfiguration dynamique des unites UT et des blocs 
BCOM du bloc TD pour rendre le bloc TD apte a traiter 
des donnees en mode & lignes dependantes, pour au moins 
deux lignes adjacentes du reseau matriciel, en 
commandant la bifurcation des donnees entre deux blocs 
BE correspondant aux deux lignes adjacentes, via un 
registre inter-lignes REG entre ces deux lignes. 

Le composant a registres inter-lignes est 
particulierement ayantageux en ce qu'il permet de 
disposer d'un mode de traitement supplementaire par 
rapport a l'art anterieur : le mocje a lignes 
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ddpendantes (ou, de maniere equivalente, a blocs BE 
dependants) . Ceci accrolt encore les possibilities de 
traitement et permet d'ameliorer le taux d r utilisation 
des ressources du composant ainsi que le debit de 
donnees. Par exemple si l'on dispose de deux lignes 
capables de traiter chacune 25 6 bits de donnees, le 
passage en mode dependant entre ces lignes permet de 
traiter 512 bits de donnees. L'hornme du metier notera 
qu'avec une architectuer PipeRench, a chaque coup 
d'horloge, on peut au mieux avec deux stripes r6aliser 
une reconfiguration d'un stripe et une execution sur 
1' autre ; ceci implique qu'une seule donn§e peut etre 
traitee a la fois, alors qu'avec 1' architecture selon 
1' invention on peut traiter deux donnees avec deux 
unites adjacentes car durant les transferts d' unite a 
unite , les unites sont reconf igurees. 

L ' invention concerne aussi un composant 
avec controle de registre, qui est un mode de 
realisation dependant du mode precedent a registres 
interlignes, dans lequel le controleur CG est apte a 
transmettre, via un bus de controle, des signaux de 
type RESET ou ENABLE ou d'horloge a chaque registre REG 
du bloc TD, et dans lequel chaque registre inter-lignes 
REG entre deux blocs BCOM est apte a : 

- stocker des donnees regues d'un bloc BCOM dans une 
memoire et les rendre disponibles pour 1' autre bloc 
BCOM ; 

- recevoir des signaux de type RESET ou ENABLE ou 
d'horloge §mis par le controleur CG et executer les 
commandes correspondantes a ces signaux. 
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Ce controle de registre inter-lignes, pour 
le' stockage en vue de la transmission de donn^es entre 
deux blocs de communication, active par la commande 
ENABLE, ou pour la remise a zero de la mfemoire de 
stockage, activee par la commande RESET, permet de 
faciliter la gestion des transferts par le controleur 
CG. 

Un autre mode de realisation de 
1' invention, dependant de l'un quelconque des modes 
precedents, concerne un composant avec multiplexage 
dans lequel : les entrees El et E2 d'un bloc BE sont 
celles d'un multiplexeur associe au bloc, la sortie du 
multiplexeur etant connectee a 1' entree de 1' unite UT 
d' entree du bloc BE pour la transmission de donn^es a 
cette unite . 

Cette version du composant permet done de 
simplifier les connexions en n' ay ant qu'une seule 
entree pour 1' unite UT d' entree de bloc BE, pour 
recevoir des donnfees des entrees El ou E2 du bloc. 

Le mode de realisation de 1' invention, 
dependant de l'un quelconque des modes de realisation 
du composant a lignes d' unites de traitement ou & 
registres inter-lignes ou avec controle de registre ou 
avec multiplexage, concerne un composant avec banc de 
cellules dans lequel : les unites de traitement de 
donn£es UT du bloc TD sont des bancs de cellules 
el^mentaires synchrones de traitement de donnees CE 
configurables, chaque banc comportant au moins une 
cellule elementaire. CE ; les cellules CE de toute unite 
UT d'un bloc BE quelconque sont connectees a un bus de 
controle commun qui les relie au contifoleur CG, le 
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controleur CG etant apte a controler les cellules CE et 
a commander leur reconfiguration; pour chaque paire 
d' unites UT adjacentes dans un bloc BE, les cellules 
elementaires d'une unite UT sont aptes a echanger des 
donnees avec les cellules elementaires de 1' autre unit6 
UT via le bloc BCOM associ6 a ces unites, le bloc BCOM 
etant apte a realiser ces echanges de donnees ; chaque 
cellule CE de l'unite UT d' entree de chaque bloc BE, 
qui correspond a la premiere unite UT sur la ligne 
correspondant au bloc, est apte a recevoir en entree 
des donnees regues en entree de 1' unite UT par un bus 
de donnees commun a toute cellule CE de 1'unitE UT; 
chaque cellule CE de l'unite UT de sortie de chaque 
bloc BE, qui correspond a la derniere unite UT sur la 
ligne correspondant au bloc, est apte a transmettre en 
sortie des donnees a la sortie S du bloc par un bus de 
donnees commun A toute cellule CE de l'unite UT. 

Cette version du composant, dans laquelle 
la cellule synchrone configurable CE est le grain fin 
de 1' architecture (bien qu' il s'agisse d'un gros grain 
par rapport aux architectures de l'art anterieur) , 
permet de paralleliser localement le travail des 
cellules Elementaires CE d'une unite UT, tout en ayant 
des interconnexions reduites puisque les cellules CE 
d'une meme unite de traitement n'echangent pas de 
donn6es entre elles. Une unite UT (ou banc) comporte en 
general n cellules CE et, si k designe la taille des 
operandes manipules par les cellules elementaires, 
l'unite UT est apte & traiter des blocs de p bits, avec 
p = n * k. La figure 3 illustre un banc UT de cellules 
CE (22), comportant ici 8 cellules, et les connexions 
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de chacune de ces cellules avec un bus de donnees 
d' entree (23) pour la transmission de donnees a 
traiter, et avec un bus de donnees de sortie (24) pour 
la transmission de donnees traitees ; les cellules CE 
sont connectees au controleur CG (non repr6sente) par 
un bus de controle commun (25) . 

La figure 4 illustre f pour un bloc BE, un 
exemple de connexions entre deux bancs de cellules CE 
adjacents au sein du bloc via un bloc BCOM : le bloc 
BCOM (2 6) permet la transmission de donnees entre une 
cellule CE (28) d' une premiere unite UT et les cellules 
(29), (30) et (31) d'une deuxieme unite UT selon des 
signaux de commande regus du controleur CG par ces 
cellules, via le bus de controle des cellules (32) , et 
par le bloc BCOM, via le bus de controle (33) ; la 
cellule (35) recevant des donnees de la cellule (34) . 
Ceci illustre les transferts bidirectionnels (27) 
permis par le bloc BCOM entre cellules de bancs (ou 
unites) differents, alors que dans une meme unite UT 
les cellules CE ne communiquent pas (par exemple les 
cellules (28) et (35)). 

1/ invention concerne aussi un mode de 
realisation du composant, dit avec controle local de 
communication, dependant du mode precedent avec banc de 
cellules, dans lequel chaque bloc BCOM, associe a des 
unites UT, comporte : 

- un bloc de transmission BT apte a realiser des 
echanges de donn§es entre les cellules elementaires CE 
d'une unit6 UT et les cellules CE de 1' autre unite UT 
auxquelles BCOM est associe ; le bloc BT 6tant' apte a 
etre configure par un controleur local de bloc CLB; 
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- un controleur local de bloc CLB apte a recevoir et 
interpreter des signaux de controle provenant du 
controleur CG et a configurer le bloc BT, selon des 
donnees de configurations regues et stockees dans une 
memoire de configuration locale MB, pour la 
transmission de donnees ; le controleur CLB etant apte 
a gerer le chargement de la memoire MB en fonction de 
signaux de contole regus du controleur CG ; 

- un controleur general CG apte a controler les 
controleur s locaux CLB du bloc TD. 

Ce coinposant avec controle local de 
communication presente de nouveaux avantages : les 
blocs de communication BCOM sont en effet 
reconf igurables et il est possible de choisir les 
cellules <§lementaires CE a interconnecter (entre unites 
UT adjacentes d'un bloc BE), ce degre de liberte 
supplementaire permettant encore plus de souplesse de 
traitement et d'efficacite d' utilisation des cellules 
(notamment pour le mappage des operateurs elementaires 
dans les cellules) . Les communications entre bancs, via 
les blocs BCOM, sont bidirectionnelles, ce qui est un 
avantage sur les composants de type PipeRench oti le 
passage des donnees entre stripes est unidirectionnel . 
A titre d' exemple, le controleur CLB comprendra 
typiquement, outre la m&uoire vive MB (ou 'RAM' ) , une 
machine a 6tats finis (ou FSM, 'Finite State Machine') 
de controle. 

Dans un autre mode de realisation du 
composant selon 1' invention, avec controle local de 
cellule, dependant du mode de realisation avec banc de 
cellules ou du mode avec contr61eur local de 
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communication, chaque cellule el6mentaire synchrone CE 
d'iin banc comporte : 

- un bloc operateur BO apte a recevoir des donnees. en 
entree par un bus de donn6es d'eiitr^e, A les stocker et 

5 a effectuer un traitement sur ces donnees selon des 
signaux de configuration provenant d'un controleur 
local de cellule CLC ; & transmettre le resultat du 
traitement en sortie par un bus de donnees de sortie; 

- un contrdleur local de cellule CLC apte & : 

10 - recevoir des donnees par le bus de donnees 

d' entree ; 

- g6rer les differents modes de f onctionnement de 
la cellule CE, c' est-&-dire un mode 
d' initialisation, pour le chargement des mots de 

15 configuration de la cellule dans une memoire de 

configuration locale MC, un mode de test, pour 
effectuer des tests structurels de la cellule, et 
un mode normal pour 1' execution des operation de 
traitement de donnees, en fonction de signaux de 

20 configuration §mis par le controleur CG et regus 

par le controleur local via le bus de controle 
commun ; 

- gferer le chargement de la memoire MC en fonction 
d'un mode de f onctionnement de la cellule indique 

25 par le contrdleur CG ; 

- interpreter des signaux de configuration regus 
du controleur CG pour soit charger un mot de 
configuration correspondant dans un registre de 
configuration local RCL pour le maintenir pendant 

30 le cycle de traitement de donnees par la cellule, 

soit configurer le bloc BO en fonctioh d'un mot de 
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configuration figurant dans le registre RCL ; 

- effectuer des tests structurels de la cellule CE 

sur reception d'un signal de mode test emis par le 

controleur CG ; 
un controleur general CG apte a controler les 
controleur s locaux CLC du bloc TD. 

Dans ce composant avec controle local de 
cellule, les cellules CE d'un banc sont 
reconf igurables . L'efficacite de traiteiuent est done 
accrue et notamment il est possible de traiter 
plusieurs applications. Le bloc TD est alors apte a 
traiter ces applications differentes, y compris de 
maniere simultanee . De plus, il est possible 
d 7 effectuer des tests sur les cellules et ainsi 
detecter des def alliances . L'homme du metier notera que 
que la strategie de f onctionnement du composant differe 
de celle de l'art ant^rieur dans lequel les ^cellules' 
voisines peuvent communiquer entre elles, ici on 
profite d'une reconfiguration de cellules pour r^aliser 
des echanges de donn^es entre les cellules (de bancs 
dif ferents) . La strategie de controle, quant a elle, 
repose sur un controle & deux niveaux : celui du 
controleur general CG au niveau haut de 1' architecture 
et celui du controle local tant au niveau du grain fin 
(controleurs CLC des cellules CE) qu' au niveau des 
blocs de communication (controleurs CLB) . Par rapport 
au FPGA du brevet US6 f 150 r 839, dans lequel la 
reconfiguration se fait par blocs de cellules, il est 
ici possible de reconfigurer cellule par cellule ; de 
plus 1' architecture selon 1' invention peut se 
reconfigurer en un cycle d'horloge au lieu plusieurs 



B 14306.3 MS 



22 



cycles necessaires (du fait du temps n^cessaire au 
chargement de la nouvelle configuration dans un bloc) 
pour ce FPGA. A titre d' exemple de realisation, le bloc 
BO comprendra typiquement une LUT, une mimoire vive et 
une unite arithmetique logique ( ou ALU, ^Arithmetic 
Logic Unit' ) . 

Dans un autre mode de realisation d'un 
composant selon 1' invention, ou composant a 
.configuration par numero, qui depend du mode de 
realisation precedent avec controle local de cellule, 
le controleur local de cellule CLC est apte a 
interpreter des signaux de configuration regus du 
controleur CG pour d'abord lire un numero de 
configuration de cellule sur le bus de controle commun 
puis charger un mot de configuration correspondant 
localement a ce numero, selon une table de 
correspondance locale, dans le registre RCL ; les 
numeros de configuration de cellule etant stockes dans 
une memoire du controleur CG et le controleur CLC 6tant 
apte a memoriser la table de correspondance locale. 

Ce mode de realisation a 1'avantage de 
requerir beaucoup moins de ressources de transmission, 
et done de simplifier la connectique du composant. En 
effet, la transmission d'un simple numero de 
configuration necessite un bus de controle beaucoup 
moins large que celui necessaire pour la transmission 
d'un mot de configuration ; ceci etant possible grace a 
la table de correspondance locale. De plus, la 
correspondance locale entre un numero et un mot de 
configuration introduit un degre de liberte 
interessant : un meme numero peut en effejt correspondre 
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a des mots de configuration differents dans des 
cellules diff6rentes, puisque les tables de 
correspondance sont locales. 

1/ invention concerne aussi un mode de 
realisation du composant, dit avec BYPASS, dependant du 
mode de realisation precedent a configuration par 
numero ou du mode avec controle local de cellule, dans 
lequel le controleur CG est apte a recevoir d'une 
cellule CE une indication de dysf onctionnement 
resultant d'un test structurel mis en ceuvre sur cette 
cellule, et a commander au contrdleur local CLC de la 
cellule CE de configurer la cellule en mode BYPASS. 

Ce mode de realisation avec BYPASS (ou 
derivation) permet d'obtenir un composant robuste au 
niveau des cellules CE. 

De meme, il est possible d'obtenir la 
robust esse au niveau des blocs BCOM grace a un mode de 
realisation d'un composant selon 1' invention, dit avec 
BYPASS de communication, . qui depend du mode de 
realisation precedent avec BYPASS et du mode avec 
controle local de communication, dans lequel le 
controleur local de bloc CLB d'un bloc de communication 
BCOM, connect e k une unite UT, est apte a configurer le 
bloc BCOM en mode BYPASS lorsque le controleur CG, 
ayant regu d'une ou plusieurs cellules CE de 1' unite UT 
une indication de dysf onctionnement , transmet au 
controleur CLB un signal de passage en mode BYPASS ; le 
controleur CG etant apte & commander le passage en mode 
BYPASS d'un bloc BCOM d'une unite UT lorsqu'une 
commande de configuration en mode BYPASS d'une cellule 
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CE de 1' unite UT a 6t<§ transmise au contrdleur local 
CLC de la cellule CE. 

Avec le mode de realisation avec bypass de 
communication, un f onctionnement degrade du composant 
(c'est-a-dire avec perte d' unites UT ou de blocs BCOM) 
est done permis. L'homme du metier notera que la 
possibility de commander des cellules ou des blocs BCOM 
en mode BYPASS offre notamment celle de disposer, dans 
.un bloc BE, d' unites UT ou de blocs BCOM 
x supplementaires' qui ne sont pas utilises en 1' absence 
de dysf onctionnement mais qui peuvent etre actives (via 
le controleur CG) en cas de dysf onctionnement dans le 
bloc ; ceci permettant de renforcer encore la 
robustesse du composant. 

Un mode de realisation d'un composant selon 
1' invention, dit avec registre local, permet 
d'augmenter la capacite de traitement du composant. 
Dans ce mode de realisation, dependant de l'un 
quelconque des modes avec banc de cellules ou a 
controle local de communication ou & controle local de 
cellule ou a configuration par numero ou avec bypass ou 
avec bypass de communication, le resultat du traitement 
de donnees effectue par une cellule CE est apte a etre 
stocke dans un registre local ; un resultat stocke dans 
ce registre local etant maintenu lors d'une 
reconfiguration de la cellule. 

Le composant avec registre local permet 
done de sauvegarder les donnees calculees pendant une 
reconfiguration et . un autre avantage lie a cette 
sauvegarde, et cela meme si le bloc BE du composant est 
^minimal' c'est-a-dire reduit a deux unites UT et un 
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bloc BCOM, est que grace au bloc BCOM a communication 
bidirectionnelle, il est possible de traiter deux 
donnees en meme temps au niveau du bloc BE et 
transmettre les rfesultats, alors que dans une 
5 architecture PipeRench on ne peut traiter qu'une donnee 
avec deux stripes (pendant qu'un stripe effectue le 
traitement, l'autre se reconfigure), et ceci suppose 
bien sur que les donnees soient sauvegardees pendant la 
reconfiguration. Un autre avantage important du a ce 

10 regis tre local est de permettre l'fechange de donnees 
stockees entre deux unites UT pendant la phase de 
reconfiguration, ce qui contribue a masquer le cycle de 
reconfiguration . 

Uh autre mode de realisation d' un composant 

15 selon 1' invention, dependant de l'un quelconque des 
modes de realisation precedents de 1' invention, 
concerne un composant avec gestion d' entree-sortie 
comportant : 

- un bloc de gestion d' entree GE apte & recevoir des 
20 donnees de 1'exterieur et a stocker temporairement ces 

donnees regues, a formater des donnees stockees selon 
le mode d' initialisation ou le mode normal indique par 
le controleur CG via un bus de controle propre, a 
transmettre des donnees format£es k 1' entree El des 
25 blocs BE du bloc TD via le bus de donnees d' entree 
coramun ; 

- un bloc de gestion de sortie GS, connecte au 
controleur CG par un bus de controle propre pour la 
commande de reception de donnees traitees, connecte au 

30 bus de donnees de sortie de chacun des blocs BE du bloc 
TD pour recevoir des donnees trait§es, et apte a 
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reformater des donn£es traitees regues, a stoker dans 
une memoire tampon des donnees reformat^es, a recevoir 
une requete de transmission depuis 1'exterieur, a 
transmettre a 1'exterieur des donnees stokees dans la 
memoire tampon sur requete regue de 1'exterieur. 

Cette version du composant, avec gestion 
d' entree-sortie, facilite les echanges des donnees avec 
1'exterieur (en particulier avec le stockage temporaire 
de donnees) et done 1' utilisation du composant par 
divers dispositifs. L'homme du metier peut remarquer 
que le gestionnaire d' entree GE permet une 
simplification de 1' implantation d'une application a 
traiter (ou mappage de 1' application) sur le composant. 

La figure 5 illustre un exemple d'un 
composant avec" gestion d' entree-sortie : un 
gestionnaire d' entree GE (36) qui regoit des donnees de 
1'exterieur par un bus de donnees (43) et transmet des 
donnees formatees a trois blocs BE (40,41,42) par un 
bus de donnees commun (44) ; les bus de donnees de 
sortie des blocs BE (45,46,47) sont connectes au 
gestionnaire de sortie GS (37) qui transmet a 
1'exterieur des donnees reformatfees par un bus de 
donnees (48) ; le controleur general CG est connecte a 
GE par un bus de contr61e (38), & GS par un bus de 
controle (39), aux blocs BE1, BE 2 et BE3, 
respect ivement, par les bus de controle (49,50,51). 

L'homme du metier sait qu'un composant 
reconfigurable doit pouvoir etre testd rfegulierement . 
Une methode bien connue pour cela est la methode JTAG 
[5] , normalisee par IEEE, qui est aussi utilisee pour 
le chargement (ou le rechargement ) (de mots de 
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configuration grace a la possibility offerte par la 
norme IEEE de disposer d' instructions specif iques a un 
utilisateur; le composant doit alors integrer un 
controleur TAP et des bus de controle specif iques. 

C'est pourquoi un autre mode de realisation 
d'un composant selon 1' invention, dependant de l'un 
quelconque des modes de realisation du composant avec 
controle local de cellule ou a configuration par numero 
ou avec BYPASS ou avec BYPASS de communication ou avec 
registre local ou avec gestion d' entree-sortie, est un 
composant avec JTAG dans lequel le controleur local CLC 
de cellule CE, le controleur local CLB de bloc BCOM et 
le controleur general CG sont aptes a mettre en oeuvre 
une methode JTAG pour le chargement des configurations 
en phase de reconfiguration dynamique du composant, et 
pour la realisation de tests ; le controleur CG 
comprenant un controleur TAP connects par des bus serie 
JTAG, bloc BE par bloc BE, aux cellules CE et aux blocs 
BCOM du bloc TD. 

Le choix du protocole JTAG, appliqu§ au 
niveau local, est tout a fait compatible avec le choix 
du controle a deux niveaux dej& 6voqu6. Ce dernier 
s'explique par le fait que l'on veut pouvoir 
reconfigurer les cellules en un temps trSs court (une 
periode d'horloge au maximum) : line reconfiguration au 
plus proche de l'operateur de base est le plus efficace 
car on minimise 1'echange d' information et done son 
interpretation. Un des avantages de ce choix etant 
qu'il permet de reduire de fagon considerable les 
ressources de routage pour le controle (un bus pour 
quelques bits de controle au lieu d'un bus de controle 
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de la largeur d'un mot de configuration), et cette 
economie importante permet de diminuer la contrainte 
pour les bus de donnees. 

La figure 6 est une illustration d'un 
exemple d' insertion d'une chaine JTAG dans un ensemble, 
au sein d'un bloc BE, comprenant deux bancs de cellules 
CE et le bloc BCOM de communication associe : la chaine 
JTAG (52) est connectee successiveitient aux cellules CE 
.du premier banc (53), au bloc BCOM (54) et aux cellules 
CE du deuxieme banc (55); cette connexion de controle 
vient en plus des bus de controle (sans JTAG) des 
cellules (56) et du bus de controle du bloc BCOM (57) 
qui sont connect6s au controleur CG (non represents*) . 

Un autre composant selon 1' invention, est 
un composant a gros grain, conforme a l'un quelconque 
des modes de realisation de 1' invention a lignes 
d' unites de traitement ou a registres inter-lignes ou 
avec controle de registre ou avec multiplexage ou avec 
banc de cellules ou avec controle local de 
communi cation ou avec controle local de cellule ou a 
configuration par numero ou avec BYPASS ou avec BYPASS 
de communication ou avec registre local ou avec gestion 
d' entr<§e-sortie ou avec JTAG, dans lequel, sur les 
jLignes du reseau, les unites UT sont en nombre pair N 
et les blocs BCOM sont repartis dans N/2 cellules de 
base CB, chaque cellule CB comportant deux unites UT 
adjacentes et le bloc BCOM associe & ces unites ; le 
controleur CG etant apte a commander la reconfiguration 
dynamique des cellules CB du reseau et des blocs BCOM 
de communication entre cellules CB, ligne par ligne, 
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pour rendre le bloc TD apte a traiter des donnees au 
moyen des cellules CB. 

Cette version du composant selon 
1' invention fait apparaitre un organe tres important en 
matiere de traitement de donnees qui est la cellule de 
base CB. Ainsi on dispose d'une architecture 
reconf igurable a trois niveaux hierarchiques : celui de 
la cellule elementaire CE (grain fin) pour 1' execution 
synchrone d' operations elementaires, celui de la 
cellule de base (gros grain) permettant de realiser des 
traitement s complexes, et enfin celui du composant lui- 
meme. Le nombre plus ou moins grand de cellules de base 
configurees pour executer un traitement de donnees 
determine alors le caractere, respectivement , a haut 
debit de donnees ou k basse consommation d'energie du 
composant. Ce caractere, adaptable suivant des signaux 
de commande (au niveau du controleur CG) , combine aux 
grandes possibility de configuration (ou de 
reconfiguration) de chaque cellule CB (via celles des 
cellules CE et du bloc BCOM) permet d'atteindre les 
buts vises par 1' invention. 

Enfin, 1' invention concerne un dernier mode 
de realisation du composant, dependant du mode de 
realisation a gros grain, dit a gros grain autonome, 
pour le traitement d'un ensemble d' applications 
comportant au moins une application, dans lequel chaque 
cellule de base CB du bloc TD configuree pour effectuer 
un traitement est apte a realiser les operations 
necessaires au traitement complet d'au moins une 
application de 1' ensemble, chaque application de 
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1' ensemble etant apte a etre realisee completement par 
au moins vine cellule de base CB. 

Ce composant a gros grain autonome est la 
version optimale du composant cl architecture 
reconf igurable de maniere dynamique selon 1 ' invention, 
II est capable de traiter un ensemble d' applications 
(qui peut se reduire a une seule application) grace a 
des cellules de base autonomes quant au traitement de 
.ces applications. Cette autonomie des cellules CB 
permet de b6nef icier de maniere optimale des 
possibilites tres souples de reconfiguration du 
composant et d' utilisation des divers modes de 
traitement en pipeline, en parallele, mixte ou en 
lignes dependantes ou de leurs di verses combinaisons . 

BREVE DESCRIPTION DES DESSINS 

Les caracteristiques et avantages de 
1' invention exposee plus haut, ainsi que d'autres qui 
ressortiront de la description suivante de modes 
particuliers de realisation, donn§s & titre d'exemples, 
apparaitront davantage en se r6f<§rant aux dessins 
annexes, sur lesquels : 

- la figure 1, decrite plus haut, illustre le mode 
de realisation de base du composant seion 
1' invention, dans un cas particulier avec trois 
blocs elfementaires BE ; 

- la figure 2, decrite plus haut, illustre un 
exemple de structure d'un bloc BE du composant a 
lignes d' unites de traitement ; 

t 
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- la figure 3, decrite plus haut, illustre une unite 
de traitement UT avec cellules CE du composant 
avec banc de cellules ; 

- la figure 4, decrite plus haut, illustre, pour un 
bloc BE, un exemple de connexions entre deux bancs 
de cellules CE adjacents au sein du bloc BE via un 
bloc BCOM d'un composant avec banc de cellules ; 

- la figure 5 f decrite plus haut, illustre un 
exemple d'un composant avec gestion d' entree- 
sortie ; 

- la figure 6, decrite plus haut, est une 
illustration d'un exemple d' insertion d'une chaine 
JTAG dans une partie d'un composant avec JTAG ; 

- la figure 7 est un schema d'une vue generale d'un 
composant a gros grain autonome ; 

- la figure 8- est un schema illustrant la phase de 
remplissage d'une ligne de cellules de base en 
mode parallele ; 

- la figure 9 est un schema illustrant la phase de 
bouclage d'une ligne de cellules de base en mode 
parallele ; 

- la figure 10 est un schema illustrant la phase de 
vidage d'une ligne de cellules de base en mode 
parallele ; 

- la figure 11 est un schema resumant les etapes de 
f onctionnement en mode parallele d'un composant a 
gros grain autonome. 

EXPOSE DETAILLE D'UN MODE DE REALISATION PARTICULIER 

Le f onctionnement d'un exemple de 
realisation d'un composant & gros grain autonome selon 
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1' invention comporte plus.ieurs phases qui peuvent 
correspondre ct des strategies d/ utilisation 
differentes. Parmi toutes ces phases, la mise en ceuvre 
des phases suivantes (a titre d'exemple) sera 
detaillee : celles d' initialisation, de f onctionnement 
normal d'un f onctionnement en parallele. 

La figure 7 illustre 1'exemple de 
composant retenu : un composant a deux lignes (ou deux 
blocs BE), la ligne d'indice 0 et la ligne d'indice 1, 
avec sur chaque ligne deux cellules de base CB et leurs 
unites de traitement UT indicees par un couple (i,j) ou 
i est 1'indice de ligne et j celui de colonne. Ainsi, 
sur la ligne 0, la cellule CB(0,1) (60) comprend les 
unite UT(0,1) et UT(0,2) et leur bloc de communication 
associ<§ BCOM(0,1) (63) pour lequel les indices sont, 
par convention, ceux de 1' unite UT precedant le bloc 
sur la ligne ; la seconde cellule CB(0,2) (62) sur la 
ligne communique avec la premiere via le bloc BCOM(0,2) 
(64) et comprend les unites UT(0,3) et UT(0,4) et le 
bloc BCOM(0,3) (65) . De m§me, la seconde ligne comprend 
les cellules de base CB(1,1) (66) et CB{1,2) (67), 
respectivement formees de UT(1,1), BCOM(l,l) (68), 
UT(1,3) et UT(1,3), BCOM(l,3) (69), UT(1,4), qui 
communiquent via le bloc BCOM(l,2) (70), Des registres 
interlignes (71,72,73) font respectivement communiquer 
les blocs BCOM(0,1) (63) et BC0M(1,1) (68), BCOM(0,2) 
(64) et BC0M(1,2) (70), BCOM(0,3) (65) et BC0M(1,3) 
(67). Le composant comporte un bus de donnees d' entree 
du bloc TD (74), un gestionnaire d' entrees GE (75) 
connect e au bus de donnees d' entree commun (76), un bus 
de donnees de sortie du bloc TD (77 ), connecte au 
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gestionnaire de sortie GS (78) qui regoit les bus de 
donnees de sortie respectivement des lignes 0 (79) et 1 
(80). Le controleur general CG (81) relie : au bus de 
controle coromun des unites UT de la ligne 0 (82) et au 
bus de controle commun des blocs BCOM de la ligne 0 
(83) f au bus de controle coromun des unites UT de la 
ligne 1 (84) et au bus de controle coromun des blocs 
BCOM de la ligne 1 (85) ; le controleur CG etant apte a 
echanger des signaux de controle avec l'extferieur (86) 
ou avec un registre a decalage peripherique (87) 
( 'Boundary Scan') pour le controle JTAG. 

a) la phase d' initialisation 

Lors de cette phase, on charge les 
differentes donnees de configuration utiles dans les 
differentes memoires. Cette phase existe apres un reset 
de raise sous tension ou apres un reset logiciel 
provoque, Le chargement se fait par le bus de donnees 
(76) (chargement en parallele). On charge en premier 
lieu les configurations des cellules ligne par ligne 
successivement, puis on procede de meme pour les blocs 
de communication. Ensuite des tests sont effectues sur 
le composant pour verifier la bonne configuration 
initiale ainsi que la sttrete structurelle (par exemple 
avec un test BIST) : a l'issu de cette etape le 
controleur CG signale a l'exterieur que le composant 
est pret a recevoir des donnees, 

b) phase de f onctionnement en parallele 

Dans cet exemple, les lignes fonctionnent 
de fagon autonome l'une par rapport & 1' autre, et 
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toutes les etapes d6crites ci-apres sont synchronisees 
a 1'horioge (indiquee par Clock sur les dessins) . 

Au niveau de chaque ligne, il y a trois 
fetapes de f onctionnement : 

- une etape 1 de chargement de ligne, par exemple la 
ligne 0, la ligne etant consideree comme un pipeline 
que l'on remplit. 

L' etape 1 est illustree, pour le remplissage de la 
ligne 0 (en reference a la figure 7) , sur la figure 8 : 
en 8a les operations executees par les unites sont 
indiquees par opl, op2 etc.. ; en 8b est represents un 
chronogrararae correspondant aux operations effectu£es 
sur la ligne 0, les impulsions de l'horloge sont 
representees en haut du chronogramme (Clock) . 

Le gestionnaire GE recupere des blocs de 
donnees, par exemple de 64 bits, et reconstitue le mot 
de p bits qui sera envoye sur la premiere unite UT de 
la ligne UT(0,1) de la premiere cellule CB(0,1). On 
charge UT(0,1) avec la premiere donnee 1 qui execute 
1' operation 1, puis on transfere le resultat vers 
UT(0,2) ; ensuite UT(0,1) execute 1' operation 1 sur un 
bloc de donnees 2 tandis que UT(0,2) execute 
1' operation 2 sur le bloc de donnees 1. On realise de 
nouveau le transfert jusqu'a atteindre le bout de la 
ligne (toutes les unites de trait ement sont occupees 
par une donnee) . 

- une etape 2 de bondage (exemple de la ligne 0): pour 
realiser le reste du traitement a effectuer (de 
1' application) en n'employant que les ressources de la 
ligne. On travaille alors par cellules de base 
(autonomes) pour realiser le traitement er} parallele. 
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L' etape 2 est illustree, pour le bouclage de la ligne 
0, sur la figure 9 : en 9a les operations effectuSes 
par les unites de la ligne sont indiquSes ; en 9b est 
represents un chronogramme de cette etape de bouclage ; 
la notation Monnee 4/3' indiquant un echange des 
donnSes traitSes 4 et 3 entre les unites UT(0,1) et 
UT(0 f 2) • 

- une etape 3 de vidage de ligne, qui est illustree, 
pour le vidage de la ligne 0, sur la figure 10 : en 10a 
les operations effectuees par les unites de la ligne 
sont indiquSes ; en 10b est represents un chronogramme 
de cette etape de vidage : 

lorsqu'on arrive a la fin de 1' algorithme, la cellule 
de base connectee au bus de sortie CB(0,2) va pouvoir 
decharger les donnSes traitSes, on passe a la phase de 
vidage du pipeline. En effet, 1' unite UT(0,4) de la 
deuxieme cellule dScharge le bloc de donnees 1 qui 
vient d'etre traitS dans le gestionnaire GS. Cependant, 
le bloc de donnees 2, dans UT(0,3), n'a pas encore subi 
la derniSre operation. II passe done dans UT(0,4) pour 
subir cette operation, 1' unite UT(0,2) transfSrant son 
bloc de donnees 3 & UT(0,3) etc.-, jusqu'au vidage 
complet de la logne 0. 

Des que le gestionnaire de sortie a une 
nouvelle donnSe traitSe, il le signale k l'exterieur 
pour sa recuperation. Ce schema se repete, en 
parallSle, pour la ligne 1. 

La figure 11 resume les Stapes prScSdentes 
et indique les traitements effectuSs en parallele sur 
les lignes 0 et 1 du composant represents en 11a. Les 



B 14306.3 MS 



36 



etapes effectues sur chacune de ces lignes, au cours 
temps r sont representees sur un chronogramme en lib. 
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REVENDICATIONS 

1. Composant a architecture reconfigurable 
dynamiquement pour le traitement de donnees comportant 

5 un bloc de traitement de donnees TD et un controleur 
general CG apte a controler le bloc TD caracterise en 
ce que : 

- le bloc TD comprend une plurality de blocs 
el6mentaires de traitement de donnees BE 

10 reconfigurables ; chaque bloc elementaire BE comprenant 
deux entries, El et E2, pour la reception de donnees a 
traiter, et une sortie S pour la transmission de 
donnees traitees ; un bus de donnees d' entree commun 
6tant apte a transmettre des donnees a traiter a 

15 1' entree El de chacun des blocs BE ainsi qu'au 
controleur CG ; pour chaque bloc BE, un bus de donnees 
de sortie , connect e a sa sortie S, etant apte a 
transmettre des donnees traitees vers l'exterieur du 
composant et, par un bus de donnees derive, & 1' entree 

20 E2 d'un seul autre bloc BE ; 

le controleur CG est apte a initialiser les 
configurations des blocs BE et commander leur 
reconfiguration dynamique, a controler les flux de 
donnees en sortie de chaque bloc BE de fagon a 

25 transmettre des donnees soit vers l'exterieur soit vers 
1' entree E2 d'un autre bloc BE, a controler les flux de 
donnees en entree de chaque bloc BE. 

2. Composant selon la revendication 1 dans 
30 lequel le controleur CG est apte a commander la 

transmission des donnees regues de l'exterieur sur le 
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bus de donnees d' entree commun, au fur et a mesure de 
leur arrivde, successivement a chacun des blocs BE, les 
donnees etant transmises a un bloc BE suivant lorsque 
la capacity maximale de traitement du bloc BE precedent 
est atteinte. 

3. Composant selon la revendication 1 ou 2 
dans lequel le controleur CG est apte a initialiser les 
configurations des blocs BE, bloc par bloc, et 
commander la reconfiguration dynamique des blocs, bloc 
par bloc, de fagon a rendre le bloc TD apte a traiter 
des donnees en mode pipeline ou en mode parallele ou en 
mode mixte. 

4, Composant selon l'une quelconque des 
revendications 1 a 3 dans lequel : 

- cha que bloc BE du bloc TD comprend une pluralite 
d' unites de traitement de donnees UT conf igurables, et 
correspond a une ligne d'un reseau matriciel d' unites 
UT dans le bloc TD ; les unites UT de chaque paire 
d' unites successives dans chaque bloc BE etant aptes a 
echanger des donnees via un bloc de communication 
bidirectionnelle configurable associe BCOM d§di6 a ces 
deux unites ; 

- 1' unite UT d' entree de chaque bloc BE, qui correspond 
Zl la premiere unite UT sur la ligne correspondant au 
bloc, est apte a recevoir en entree des donnees regues 
sur les entrees El ou E2 du bloc, et 1' unite UT de 
sortie du bloc, qui correspond & la derniere unite UT 
sur la ligne correspondant au bloc, est apte & 
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transmettre en sortie des donnees traitfees a la sortie 
S du bloc ; 

- le controleur CG est apte, pour chaque bloc BE, & 
recevoir de 1'exterieur des instructions pour le 
traitement de donnees par chacune des unites UT du bloc 
et a les m^moriser, a initialiser les configurations de 
chaque unite UT et de chaque bloc BCOM du bloc BE et & 
commander leur reconfiguration dynamique. 

5 . Composant selon la revendication 4 dans 

lequel : 

- les blocs BCOM de chaque paire de blocs BCOM, dont 
les unites UT associees sont, selon le reseau matriciel 
d r unites du bloc TD, sur des colonnes adjacentes et sur 
des lignes adjacentes, sont aptes a echanger des 
donnees par un registre inter-lignes associe REG, de 
fagon a permettre l'echange de donnees entre unites UT 
d'une ligne a 1' autre; 

le contr61eur CG est apte a * commander la 
reconfiguration dynamique des unites UT et des blocs 
BCOM du bloc TD pour rendre le bloc TD apte a traiter 
des donnees en mode a lignes dependantes, pour au moins 
deux lignes adjacentes du reseau matriciel, en 
commandant la bifurcation des donnees entre deux blocs 
BE correspondant aux deux lignes adjacentes, via un 
registre inter-lignes REG entre ces deux lignes. 

6. Composant selon la revendication 5 dans 
lequel le controleur CG est apte a transmettre, via un 
bus de controle, des signaux de type RESET ou ENABLE ou 
d'horloge & chaque registre REG du bloc/ TD, et dans 
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lequel chaque registre inter-lignes REG entre deux 
blocs BCOM est apte a : 

- stocker des donnees regues d'un bloc BCOM dans une 
memoire et les rendre disponibles pour 1' autre bloc 

5 BCOM ; 

- recevoir des signaux de type RESET ou ENABLE ou 
d'horloge §mis par le controleur CG et ex^cuter les 
commandes correspondantes a ces signaux. 

10 7. Composant selon l'une quelconque des 

revendications 4 a 6 dans lequel : les entrees El et E2 
d'un bloc BE sont celles d'un multiplexeur associe au 
bloc, la sortie du multiplexeur etant connectee a 
1' entree de 1' unite UT d' entree du bloc BE pour la 

15 transmission de donnees a cette unite. 

8. Composant selon l'une quelconque des 
revendications 4 a ' 7 dans lequel : les unites de 
traitement de donnees UT du bloc TD sont des bancs de 

20 cellules elementaires synchrones de traitement de 
donnees CE conf igurables, chaque banc comportant au 
moins une cellule elementaire CE ; les cellules CE de 
toute unit6 UT d'un bloc BE quelconque sont connect6es 
a un bus de controle coramun qui les relie au controleur 

25 CG, le controleur CG etant apte a controler les 
cellules CE et a commander leur reconfiguration; pour 
chaque paire d' unites UT adjacentes dans un bloc BE, 
les cellules elementaires d'une unite UT sont aptes a 
echanger des donnfees avec les cellules elementaires de 

30 1' autre unite UT via le bloc BCOM associe & ces unites, 
le bloc BCOM etant apte & r^aliser ces ^changes de 
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donnees ; chaque cellule CE de 1' unite UT d' entree de 
chaque bloc BE, qui correspond a la premiere unit6 UT 
sur la ligne correspondant au bloc, est apte a recevoir 
en entree des donnees regues en entree de 1' unite UT 
par un bus de donnees commun a toute cellule CE de 
1' unite UT; chaque cellule CE de 1' unite UT de sortie 
de chaque bloc BE, qui correspond a la derniere unite 
UT sur la ligne correspondant au bloc, est apte a 
.transmettre en sortie des donnees & la sortie S du bloc 
par un bus de donnees commun & toute cellule CE de 
1' unite UT. 

9. Composant selon la revendication 8 dans 
lequel chaque bloc BCOM, associe a des unites UT, 
comporte : 

- un bloc de transmission BT apte a realiser des 
echanges de donnees entre les cellules elementaires CE 
d'une unite UT et les cellules CE de 1' autre unite UT 
auxquelles BCOM est associe ; le bloc BT etant apte .a 
etre configure par un controleur local de bloc CLB; 

- un controleur local de bloc CLB apte & recevoir et 
interpreter des signaux de contrdle provenant du 
controleur CG et a configurer le bloc BT, selon des 
donnees de^ configurations regues et stock6es. dans une 
memoire de configuration locale MB, pour la 
transmission de donnfees ; le controleur CLB etant apte 
a gerer le chargement de la memoire MB en fonction de 
signaux de contole regus du controleur CG ; 

- un controleur general CG apte a controler les 
controleurs locaux CLB du bloc TD. 

f 
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10. Composant -selon l'une quelconque des 
revendications 8 ou 9 dans lequel chaque cellule 
elementaire synchrone CE d'un banc comporte : 
- un bloc operateur BO apte a recevoir des donnees en 
5 entree par un bus de donnees d' entree, a les stocker et 
& effectuer un traitement sur ces donnees selon des 
signaux de configuration provenant d'un controleur 
local de cellule CLC ; & transitiettre le resultat du 
traitement en sortie par un bus de donnees de sortie ; 
10 - un controleur local de cellule CLC apte a : 

- recevoir des donnees par le bus de donnees 
d' entree ; 

- gerer les diff^rents modes de f onctionnement de 
la cellule CE, c' est-a-dire un mode 

15 d' initialisation, pour le chargement des mots de 

configuration de la cellule dans une memoire de 
configuration locale MC, un mode de test, pour 
effectuer des tests structurels de la cellule, et 
un mode normal pour 1' execution des operation de 

20 traitement de donnees, en fonction de signaux de 

configuration emis par le controleur CG et regus 
par le controleur local via le bus de controle 
commun ; 

- gerer le chargement de la memoire MC en fonction 
25 d'un mode de f onctionnement de la cellule indiqu6 

par le controleur CG ; 

- interpreter des signaux de configuration regus 
du controleur CG pour soit charger un mot de 
configuration correspondant dans un registre de 

30 configuration local RCL pour le maintenir pendant 

le cycle de traitement de donn6es par la cellule, 
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soit configurer le bloc BO en fonction d'un mot de 
configuration figurant dans le registre RCL ; 
- effectuer des tests structurels de la cellule CE 
sur reception d'un signal de mode test emis par le 
controleur CG ; 

- un controleur general CG apte A controler les 

controleur s locaux CLC du bloc TD. 

11. Composant selon la revendication 10 
dans lequel le controleur local de cellule CLC est apte 
a interpreter des signaux de configuration regus du 
controleur CG pour d'abord lire un numero de 
configuration de cellule sur le bus de controle commun 
puis charger un mot de configuration correspondant 
localement a ce numero, selon une table de 
correspondance locale, dans le registre RCL ; les 
numeros de configuration de cellule etant stockes dans 
une memoire du controleur CG et le controleur CLC etant 
apte a memoriser la table de correspondance locale. 

12. Composant selon l'une quelconque des 
revendi cat ions 10 ou 11 dans lequel le contr Sleur CG 
est apte a recevoir d'une cellule CE une indication de 
dysfonctionnement resultant d'un test structurel mis en 
oeuvre sur cette cellule, et a commander au controleur 
local CLC de la cellule CE de configurer la cellule en 
mode BYPASS. 

13. Composant selon les revendications 9 et 
12 dans lequel le controleur local de bloc CLB d'un 
bloc de communication BCOM, connecte a ]ane unite UT, 
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est apte a configurer le bloc BCOM en mode BYPASS 
lorsque le controleur CG, ayant regu d'une ou plusieurs 
cellules CE de 1' unite UT une indication de 
dysf onctionnement r transmet au controleur CLB un signal 
5 de passage en mode BYPASS ; le controleur CG etant apte 
a commander le passage en mode BYPASS d'un bloc BCOM 
d'une unite UT lorsqu'une commande de configuration en 
mode BYPASS d'une cellule CE de 1' unite UT a ete 
transmise au contrdleur local CLC de la cellule CE. 

10 

14. Composant selon l'une quelconque des 
revendications 8 a 13 dans lequel le resultat du 
traitement de donnees effectue par une cellule CE est 
apte a etre stocke dans un registre local ; un resultat 

15 stocke dans ce registre local etant maintenu lors d'une 
reconfiguration de la cellule. 

15. Composant selon l'une quelconque des 
revendications 1 a 14 comportant : 

20 - un bloc de gestion d' entree GE apte a recevoir des 
donnees de l'exterieur et a stocker temporairement ces 
donnees regues, a formater des donnees stockees selon 
le mode d' initialisation ou le mode normal indique par 
le controleur CG via un bus de controle propre, a 

25 transmettre des donnees formatees a 1' entree El des 
blocs BE du bloc TD via le bus de donnees d' entree 
commun ; 

- un bloc de gestion de sortie GS, connects au 
controleur CG par un bus de controle propre pour la 
30 commande de reception de donnees traitees, connects au 
bus de donnees de sortie de chacun des blocs BE du bloc 
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TD pour recevoir des donnees traitees, et apte a 
reformater des donnees traitees regues, a stoker dans 
une memoire tampon des donnees reformatees, a recevoir 
une requete de transmission depuis l^exterieur, a 
transmettre a l'exterieur des donnees stokees dans la 
memoire tampon sur requete regue de l'exterieur. 

16. Composant selon rune quelconque des 
revendications 10 a 15 dans lequel le contrdleur local 
CLC de cellule CE, le controleur local CLB de bloc BCOM 
et le controleur general CG sont aptes a mettre en 
oeuvre une m6thode JTAG pour le chargement des 
configurations en phase de reconfiguration dynamique du 
composant, et pour la realisation de tests ; le 
controleur CG comprenant un contrdleur TAP connecte par 
des bus serie JTAG, bloc BE par bloc BE, aux cellules 
CE et aux blocs BCOM du bloc TD. 

17. Composant selon l'une quelconque des 
revendications 4 a 16 dans lequel, sur les lignes du 
reseau, les unites UT sont en nombre pair N et les 
blocs BCOM sont repartis dans N/2 cellules de base CB f 
chaque cellule CB comportant deux unites UT adjacentes 
et le bloc BCOM associ§ a ces unites ; le controleur CG 
etant apte a commander la reconfiguration dynamique des 
cellules CB du reseau et des blocs BCOM de 
communication entre cellules CB, ligne par ligne, pour 
rendre le bloc TD apte a traiter des donnees au moyen 
des cellules CB. 

f 
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18. Composant selon la revendication 17, 
pour le traitement d/un ensemble d' applications 
comportant au moins une application, dans lequel chaque 
cellule de base CB du bloc TD configur^e pour effectuer 
5 un traitement est apte a realiser les operations 
necessaires au traitement complet d'au moins line 
application de 1' ensemble, chaque application de 
1' ensemble etant apte a etre realisee completement par 
au moins une cellule de base CB. 
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